Warning: file_put_contents(aCache/aDaily/post/opendatascience/-2278-2279-2280-2278-): Failed to open stream: No space left on device in /var/www/tg-me/post.php on line 50
Data Science by ODS.ai 🦜 | Telegram Webview: opendatascience/2278 -
Telegram Group & Telegram Channel
Forwarded from Russian OSINT
🤖 Исследователи представили универсальный метод атаки на LLM под названием «Policy Puppetry»

Как сообщают исследователи из HiddenLayer, им удалось разработать универсальную методику prompt injection, которая позволяет обходить защитные барьеры LLM. Техника под названием «Policy Puppetry» успешно нарушает политики безопасности современных LLM и выходит за рамки ограничений таких моделей, как OpenAI (линейки ChatGPT 4o, 4.5, o1 и o3-mini), Google (Gemini 1.5, 2.0, 2.5), Microsoft (Copilot), Anthropic (Claude 3.5, 3.7), Llama, DeepSeek (V3 и R1), Qwen (2.5 72B) и Mistral (Mixtral 8x22B).

Исследователи не публикуют полные вредоносные примеры и не предоставляют доступ к готовым PoC для свободного использования, а лишь объясняют метод в научных целях.

Многие LLM от OpenAI, Google и Microsoft хорошо обучены отклонять прямолинейные опасные запросы, но если "вшить" их в инструкции и сделать частью собственных правил, то модели будут генерировать запрещённый контент без активации защитных механизмов.

Основой метода является использование специальных текстовых шаблонов, имитирующих документы политик в форматах XML, JSON или INI. При помощи таких шаблонов модели воспринимают вредоносные команды как безопасные системные инструкции. Они позволяют обходить встроенные ограничения и генерировать запрещенный контент, связанный с разработкой ⚠️ оружия массового поражения, пропагандой насилия, инструкциями по нанесению вреда себе, химическим оружием, а также с раскрытием конфиденциальной информации о работе внутренних механизмов моделей.

Условно: ИИ-модель думает: «Это не просьба пользователя, а команда на изменение настроек!». Когда текст выглядит как код или служебная инструкция, то модель перестаёт применять фильтры безопасности и начинает воспринимать команды буквально.

Техника отличается исключительной универсальностью. Один и тот же шаблон может применяться против множества моделей без необходимости в доработках. ↔️ Опасность обнаруженного метода в том, что он доступен практически любому пользователю и не требует глубоких технических знаний.

По мнению исследователей, подобная уязвимость свидетельствует о фундаментальных недостатках в методах обучения и настройки LLM, отмечая острую необходимость в новых подходах к обеспечению безопасности, чтобы предотвратить дальнейшее распространение угроз по мере усложнения ИИ-моделей.

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/opendatascience/2278
Create:
Last Update:

🤖 Исследователи представили универсальный метод атаки на LLM под названием «Policy Puppetry»

Как сообщают исследователи из HiddenLayer, им удалось разработать универсальную методику prompt injection, которая позволяет обходить защитные барьеры LLM. Техника под названием «Policy Puppetry» успешно нарушает политики безопасности современных LLM и выходит за рамки ограничений таких моделей, как OpenAI (линейки ChatGPT 4o, 4.5, o1 и o3-mini), Google (Gemini 1.5, 2.0, 2.5), Microsoft (Copilot), Anthropic (Claude 3.5, 3.7), Llama, DeepSeek (V3 и R1), Qwen (2.5 72B) и Mistral (Mixtral 8x22B).

Исследователи не публикуют полные вредоносные примеры и не предоставляют доступ к готовым PoC для свободного использования, а лишь объясняют метод в научных целях.

Многие LLM от OpenAI, Google и Microsoft хорошо обучены отклонять прямолинейные опасные запросы, но если "вшить" их в инструкции и сделать частью собственных правил, то модели будут генерировать запрещённый контент без активации защитных механизмов.

Основой метода является использование специальных текстовых шаблонов, имитирующих документы политик в форматах XML, JSON или INI. При помощи таких шаблонов модели воспринимают вредоносные команды как безопасные системные инструкции. Они позволяют обходить встроенные ограничения и генерировать запрещенный контент, связанный с разработкой ⚠️ оружия массового поражения, пропагандой насилия, инструкциями по нанесению вреда себе, химическим оружием, а также с раскрытием конфиденциальной информации о работе внутренних механизмов моделей.

Условно: ИИ-модель думает: «Это не просьба пользователя, а команда на изменение настроек!». Когда текст выглядит как код или служебная инструкция, то модель перестаёт применять фильтры безопасности и начинает воспринимать команды буквально.

Техника отличается исключительной универсальностью. Один и тот же шаблон может применяться против множества моделей без необходимости в доработках. ↔️ Опасность обнаруженного метода в том, что он доступен практически любому пользователю и не требует глубоких технических знаний.

По мнению исследователей, подобная уязвимость свидетельствует о фундаментальных недостатках в методах обучения и настройки LLM, отмечая острую необходимость в новых подходах к обеспечению безопасности, чтобы предотвратить дальнейшее распространение угроз по мере усложнения ИИ-моделей.

@Russian_OSINT

BY Data Science by ODS.ai 🦜






Share with your friend now:
tg-me.com/opendatascience/2278

View MORE
Open in Telegram


Data Science by ODS ai 🦜 Telegram | DID YOU KNOW?

Date: |

Telegram hopes to raise $1bn with a convertible bond private placement

The super secure UAE-based Telegram messenger service, developed by Russian-born software icon Pavel Durov, is looking to raise $1bn through a bond placement to a limited number of investors from Russia, Europe, Asia and the Middle East, the Kommersant daily reported citing unnamed sources on February 18, 2021.The issue reportedly comprises exchange bonds that could be converted into equity in the messaging service that is currently 100% owned by Durov and his brother Nikolai.Kommersant reports that the price of the conversion would be at a 10% discount to a potential IPO should it happen within five years.The minimum bond placement is said to be set at $50mn, but could be lowered to $10mn. Five-year bonds could carry an annual coupon of 7-8%.

At a time when the Indian stock market is peaking and has rallied immensely compared to global markets, there are companies that have not performed in the last 10 years. These are definitely a minor portion of the market considering there are hundreds of stocks that have turned multibagger since 2020. What went wrong with these stocks? Reasons vary from corporate governance, sectoral weakness, company specific and so on. But the more important question is, are these stocks worth buying?

Data Science by ODS ai 🦜 from cn


Telegram Data Science by ODS.ai 🦜
FROM USA